Be my extension? 成為我的延伸?
我不想告訴你我要什麼,但你得懂我。我只是拿起手機靠近耳朵,它就知道我要打電話,我輕輕一捏,頁面就自動縮放,我晃一晃手機,它就幫我切換音樂,我揮揮手,AI 自動識別我想跳過當前內容,你甚至不用開口,不用點按鈕,只要“動”一下,AI 就知道你的下一步動作。

Arc Search 是一款支援多模態互動的智慧瀏覽器助手,具備網頁內容摘要、語音搜尋與自然語言響應等能力。其核心特點包括:以使用者行為驅動的自然互動設計(如捏合網頁或靠近耳朵啟用)、流暢的載入反饋機制,以及結構化的資訊輸出能力,致力於提升資訊獲取效率和使用便捷性。
Main AI-UX interaction
透過使用者雙指在網頁上進行“捏合”手勢操作,系統會觸發 AI 摘要功能,對頁面內容進行提煉和壓縮。(這種互動方式體現了以人為本的 UX 設計理念,簡化使用者任務路徑,提高網頁瀏覽效率。)
Loading state
當使用者觸發摘要功能後,系統進入載入狀態,並顯示過渡動畫及提示語“Summarizing for you...”。(此階段的視覺設計採用漸變背景和輕柔的動效,有助於緩解等待焦慮,提升使用者體驗。)
Example output
系統輸出的示例摘要展示了提煉後的網頁內容,例如食譜的主要原料與步驟資訊被濃縮成結構化段落。(說明 AI 能夠理解網頁上下文,併產出清晰、簡潔、可快速閱讀的資訊摘要。)
Main AI-UX interaction
當使用者將手機靠近耳朵時,裝置感測器感知該動作並自動喚起語音搜尋功能,無需點選按鈕。(此設計借鑑了通話的自然行為方式,是典型的“無介面互動”實踐,使 AI 功能更貼近使用者日常使用習慣。)
Loading state
語音互動被觸發後,系統進入等待狀態,播放輕音樂以營造放鬆氛圍,同時保持使用者對當前程序的感知。(這是一種常用於語音介面的 UX 技巧,稱為“環境填充反饋”,能夠提升使用者體驗連貫性。)
Example output
AI 在對話中給出自然語言回應,例如:“I can provide information, answer questions…” 等內容,體現了系統的語言理解與生成能力。(此輸出展示了 AI 助手在語音互動場景下的實用性與智慧化表現,可用於日常問答、建議推薦等場景。)
Multi-modal input
支援語音輸入與輸出的多模態互動能力,使系統可靈活應對不同使用者偏好和操作場景。(多模態系統結合語音識別、語義理解與語音合成技術,提升人機互動的自然性與效率,是智慧助手類產品的關鍵能力之一。)

Google Search 在該場景下展現了其視覺驅動、多模態搜尋能力。透過影象識別與手勢輸入相結合的方式,使用者可以更直觀地選中感興趣的視覺內容併發起搜尋。系統在互動中實現了“從影象理解到語義回應”的閉環,顯著提升搜尋效率與體驗,特別適用於不便文字描述的影象場景。整體體驗聚焦於自然、高效、人性化的資訊獲取路徑設計。
Entry touch points
Google Search 在移動端引入了視覺導向的入口機制,使用者可以透過影象流中的內容直接點選或長按,快速進入 AI 搜尋功能。(此方式減少了傳統關鍵詞輸入的步驟,利用使用者對影象的直觀反應作為互動起點,強化了“所見即所得”的互動邏輯。)
Main AI-UX interaction
使用者在圖片上圈選或塗畫目標區域,即可觸發視覺搜尋。(該操作方式結合了視覺感知與手勢識別,增強了搜尋的自然性和自由度,同時提升使用者與影象內容之間的互動黏性。系統能夠準確識別使用者標記區域中的主體,作為搜尋輸入來源。)
Loading state
系統收到使用者的圈選操作後,進入載入階段,介面會突出顯示所選影象區域,並顯示“Add to your search”提示。(此過程不僅提供清晰的反饋,還使使用者保持對搜尋目標的可視感知,從而減少操作中的不確定性。)
Example output
最終的搜尋結果顯示了與圈選影象相似的相關內容,例如貓的品種資訊“Kucing Malaysia”,並提供結構化資訊卡片展示詳情。(這一結果說明系統已成功完成影象識別、語義聯想與結果生成三步操作,為使用者提供了精準且上下文相關的搜尋資訊。)
Multi-modal input
支援“圈選(Circle)”或“塗畫(Squiggle)”兩種手勢作為視覺搜尋輸入方式,體現了多模態互動的應用。(這類輸入形式突破了傳統的語音與文字邊界,使影象、手勢成為完整輸入通道,為多場景下的搜尋需求提供了更高適應性。)